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) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprechen 

Verfahren zur Spracherkennung bei Wortkomposita ent- 
haltenden Sprachen mit folgenden Schritten: 
Speichern einer Menge von phonetischen Transkriptionen 
von Wdrtem und Kompositabestandteilen; 
Berechnen einer Menge von N-Gramm Haufigkelten 
(Sprachmodeil) fur die Wahrschelnlichkeit des Auftretens 
eines Kompositums Innerhalb einer aus N Wdrtern zuaam- 
mengesetzten Wort folge unter Heranziehung eines vorab 
verarbeiteten Textkorpus', und Speichern dieser Menge; 
Erfassen und Digitalisieren des akustischen Sprachsignals 
sowie Speichern des digitaiisierten Sprachsignals, wobel 
mittela einer Signalverarbeitung auf der Grundlage der 
phonetischen Transkriptionen n§herungsweise Wdrter und 
Kompositumbegrenzungen ermittelt werden, aus denen hy- 
pothetlsche Folgen von Wort- und/oder Kompositumkandi- 
daten a bgeleitet werden; 

Errichten von getrennten Bearbeitungspfaden fOr Folgen von 
Komposltumkandidaten und fOr Folgen von Wortkandidaten; 
Statiatische Auswertung der Bearbeitungspfade mittels der 
gespeicherten N-Grarnm Haufigkelten, wobei aus der Folge 
der N-Gramm Haufigkelten der W6rter bzw. Komposltaba- 
standteile jedes Bearbeitungspfadas Wahrscheinlichkeits- 
Profile gebiidet werden; sowie 

Gesamtbewertung der Bearbeitungspfade unter Heranzie- 
hung der ermittelten Wehrscheinlichkeits-Profile. 
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Beschreibung 

Die vorliegende Erfindung betrifft zum einen ein fur Wortkomposita geeignetes Spracherkennungsverfahren, 
das bei sowohl diskretem als auch kontinuierlichera Diktat einsetzbar ist und das sich insbesondere zur Echtzeit- 
Spracherkennung eignet Des weiteren bezieht sich die Erfindung auf eine Spracherkennungsanordnung zur 
Anwendung dieses Verfahrens. 

Der Erfindung Eegt das seitens der Anmelderin entwickelte Spracherkennungssystem TANGO RA zugrande. 
TANGO RA ist ein Echtzeit-Spracherkennungssystem fttr groBe Vokabulare mit mehr als 20.000 Wortformen, 
das mit geringem Aufwand vom Benutzer sprecherspezifisch trainiert werden kann. 

Ausgangspunkt bei diesem bekannten System ist die Aufteilung des Spracherkennungsprozesses in einen auf 
akustischen Daten basierenden Teil (Decodierung) und einen auf Sprach- bzw. Textkorpora eines bestimmten 
Anwendungsbereichs zurflckgreifenden sprachstatistischen Teil (Sprachmodell). Die Entscheidung fiber Wort- 
kandidaten ergibt sich so mit jeweils aus einer Decoder- sowie einer Sprachmodell-Wahrscheinlichkeit FQr den 
Anwender ist priraar die aufgrund dieser Architektur mdgliche Anpassung des vom Erkennungssystem verarbei- 
teten Wortschatzes an branchenspezifische oder sogar indhriduelle Anforderungen von besonderer Bedeutung. 

Bei diesem Spracherkennungssystem liefert die akustische Decodierung zunachst Worthypothesen. Bei der 
weiteren Bewertung miteinander konkurrierender Worthypothesen werden nun die Sprachmodelle zugrunde- 
gelegt Diese stellen aus anwendungsspezifischen Textkorpora gewonnene Schatzungen von Wortfolgenhaufig- 
keiten dar und basieren auf einer Sammlung von Textproben aus einem gewunschten Anwendungsbereich. Aus 
diesen Textproben werden die hiufigsten Wortf ormen und Wortf olgestatistiken generiert 

Bei dem bier angewandten Verfahren zur Hiufigkeitsschatzung von Wortfolgen werden die Haufigkeiten fQr 
das Auftreten von sogenannten Wortfonn-Trigrammen in einem gegebenen Textkorpus geschitzt (siehe u. a. 
Nadas, A^ "On Turing's Formula for Word Probabilities", IEEE Proa ASSP, 33, 6, 1985, pp. 1414-1416). Bei 
einem Wortschatz von 20.000 Wortformen, wie er derzeit in dem Spracherkennungssystem TANGO RA genutzt 
wird, waren allerdings etwa 8 Bfllionen Trigramme mdglich. Die in der Praxis gesammelten Korpora sind also 
immer noch um einige Zehnerpotenzen zu klein, urn Qberhaupt alle Trigramme auch nur beobachten zu kdnnen. 

Diesem Problem des begrenzten Wortschatzes wird a*.0. mit der Bildung sogenannter Objektklassen, die in 
dem Sprachkorpus mit gieicher Haufigkeit vorkommen, begegnet Die Schatzung basiert dabei auf der Annan- 
me einer Binomialverteilung einer Zufallsvariablen, welche allgemein die Ziehung eines Objektes aus einer 
Haufigkeitsklasse beschreibt 

In bekannten Spracherkennungssystemen wird fQr diese zu schatzenden Wahrscheinlichkeiten hiufig das 
sogenannte Hidden-Markov-Modefl angewendet Hierbet werden mehrere im Textkorpus beobachtete Haufig- 
keiten zugrundegelegt FQr ein Trigramm *uvw* sind dies ein Nullgrainm-Tenn fo, ein Unigramm-Term f(w), ein 
Bigramro-Term f (w| v) sowie ein Trigramm-Tenn f (w|uv). Diese Terme entsprechen den im Textkorpus beob- 
achteten relativen Haufigkeiten, wobei dem Nullgramm-Term lediglich eine korrektive Bedeutung zukommt 

FaBt man diese Terme als Wahrscheinlichkeiten des Wortes w unter verschiedenen Bedingungen auf, so kann 
man eine sogenannte latente Variable zufQgen, von der aus durch ZustandsQbergange eine der vier Bedingungen 
erreicht wird, die das Wort w erzeugen. Bezeichnet man die Obergangswahrscheinlichkeiten fQr die betreffen- 
den Terme mit Ao Xi X2 Xj, so ergibt sich folgender Ansatz f Or die Darstellung der gesuchten Trigrammwahr- 
scheinlichkeit 

Pi<w|uv) - Xofo + Xi f(w) + X 2 f(w|v) + Xaf(w|uv) (1) 

Die eigentHche Schatzung der Obergangswahrscheinlichkeiten erfolgt mittels der Methode der sogenannten 
"deleted estimation* (s. Jelinek, F. und Mercer, IL, "Interpolated Estimation of Markov Source Parameters from 
Sparse Data", in Pattern Recognition in Practice, Amsterdam, North Holland, 1980, pp. 381-397). Bei diesem 
Verfahren werden durch Weglassung von Korpusteilmengen mehrere kleinere Textstichproben erzeugt FQr 
jede Stichprobe erfolgt eine Bewertung nach der oben genannten Methode, die auf den Wortfolgestatistiken 
beruht 

Die bekannten Spracherkennungssysteme haben den Nachteil, daB jedes Wort als eine Wortform im Wort- 
schatz dieser Systeme auftritt Aus diesem Grunde werden relativ hohe Anforderungen an die Speicherkapazitat 
der Systeme gestellt Die im allgemeinen sehr umfangrekhen Wortschatze wirken sich zudem nachteilig auf die 
Schnelligkeit der Erkennungsverf ahren aus. 

In dem Aufsatz "Halbsilben als Bearbeitungseinheiten bei der automatischen Spracherkennung", G. Ruske, 
Journal "Sprache und Datenverarbeitung", 8. Jahrgang 1984, Heft 1/2, S. 5- 16, wird zur Ldsung dieses Problems 
vorgeschlagen, bei der automatischen Spracherkennung zur Festlegung kleinster Bearbeitungseinheiten im 
Bereich der akustisch-phonetischen Analyse eine Segmentierung des Wortschatzes in Halbsilben vorzunehmen. 
GegenQber Systemen, denen Silben als Grundelemente zugrundeliegen und die aus diesen Grundelementen jede 
sprachliche AuBerung "bausteinartig" aufbauen, weist diese Vorgehensweise hinsichtlich der Speicheranforde- 
rungen eta Vortefle auf. Denn beispielsweise im Deutschen betrigt die Zahl der verschiedenen Silben bereits 
etwa 5.000, Ferner werden in dem Aufsatz die VorzQge der silbenorientierten Segmentierung auch fur die 
hdheren Bearbeitungsstufen der Spracherkennung angesprochen, wobei von relativ sicher erkannten Silben 
ausgehend Worthypothesen generiert werden, Auf die Umsetzung dieser Hypothese in ein Sprachmodell wird 
dort allerdings nkht eingegangen. 

Ein besonderes Problem bei der Spracherkennung stellen die in vielen Sprachen relativ hiufig auftretenden 
Komposita dar. Beispielsweise treten im medizinischen Bereich hiufig zusammengesetzte Fachtermini auf, die 
nur in einigen Sprachen durch Genitivattribute ausgedrQckt werden kdnnen. Bei den bekannten Spracherken- 
nungssytemen tritt jedes Kompositum als eine eigene Wortform im Wortschatz der Systeme auf, woraus sich 
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Nachteile bezOglich der Performance dieser Systeme, beispielsweise auf grund der erhOhten Anforderungen an 
^derfoS 

nungssystem Mr Komposita enthaltende Sprachen vorveroffendicht, dem das vorgenawrte Problem des Spei- 
cherzuwachses zugnindeliegt und das die Aufnahme von Komposita in das aktiye Vokabular venneiden wiD, Zur 
Ldsung wird vorgeschlagen, eine spezieDe Erkennungseinrichtung fur Komposita emzusetzen. Bei emem mSgli- 
cherweise vorliegenden Kompositum wechselt diese Einrichtung in einen besonderen Betnebsmodus, m dem 
mdgfiche Kompositum-Kandidaten in Form einer Liste angezeigt werden, aus der der Benutzer das nchttge 

Kompositum manueD auszuwahlen hat 

Der vorliegenden Erfindung Uegt somit die bereits in dem in Studientexte zur Sprachkommunikanon ISSN 
0940-6832, Heft 1 1 S. 190-197, vorveroffentlichten Aufsatz von M. Spies mit dem Titel "Die Behandlung von 
Wortkomposha in der maschineOen Spracherkennung*, genannte Aufgabe zugrunde, em Verfahren bzw. erne 
Anordnung zur Spracherkennung bereitzustellen, bei denen vermieden wird, daB Komposita jeweds als Ganzes 
im Sprachmodell berflcksichtigt werden mflssea Im Gegensatz dazu soDen nur Bestandtede von Komposita 
Bertlcksichtigung findea Dartlber hinaus soU eine voU mascbineUe Erkennung aueh von Komposita ermoglicht 

W *Wese Aufgabe wird bei dem erfindungsgemaBen Spracherkennungsverfahren geldst durch die im Patentan- 
spruch 1 vorgeschlagenen Verfahrensschritte. . _ , . „ . 

Das erfindungsgemaBe Spracherkennungsverfahren geht von dem Ansatz aus, im SprachmodeD nicht voU- 
sttodige Komposita zu spekhern, sondern lediglich KompositabestandteUe in Form von Einzelwertem. Das 
Erkennungssystem hat demnach nur diese Bestandteile im Vokabular zu verwaltea Em wesentficher Geachte- 
Dunkt dieses Losungsgedankens ist, bei der Erkennung mSglicher Komposita fur die entsprechenden Komposi- 
tabestandteDe sowie fflr die mSglichen Einzelwdrter getrennte Bearbeitungspfade etnzunchten, d h one jeweOs 
unterschiedUche Weiterverarbeitung der hypothetischen zeitlichen Abfolgen von Wortkandidaten, die im Ver- 
lauf der Spracherkennung aus einer Folge phonetischer Transkriptionen von WSrtera und I Kompositabestand-. 
teUen generiert werden. Auf diesen Bearbeitungspfaden werden dann fttr Komposita spezifische Sprachmodell- 
statistiken zur Bewertung der Worthypothesen berechnet 

Bei den N-Gramm Statisuken hat es sich als besonders vorteilhaft erwiesen, Wortform-pigramme zu ver- 
wendea Die Verwendung von Trigrammen im Sprachmodell hat den Vorteu, daB em idealer KompromiB 
zwischenSpeicherbelastungundVei^dtungsgeschwmdigkehgeschaff 

Bei dem erfindungsgemaBen Spracherkennungsverfahren kdnnen ferner fttr einen Kom^situmendteil-Kan- 
didaten W, gegeben einen Kontext C im SprachmodeU distante N-Graininhaungkeiteii PitW/Q mcht uimuttel- 
bar benachbarter Teile einer Wortfolge gebildet werden, Grundlage dieser SprachmodeUstatistik Bt erne Zerle- 
gung der WahrscheinUchkeiten, bei der der vorausgehende Kontext und die Bestandtede ernes Kompositums 
letrennt berflcksichtigt werden, Einen Schlttssel zur LC-sung dieses Problems Befert wieder die m der Lmguistik 
bekannteTatsachcdaB grammatisch bestimmende Teile eines Kompositums in der Regel am Kompoatumende 
aufzufinden sind, wobei aese Bestandtede Auskunft flber Genus, Casus, Numerus geben, sofern das Komposi- 
tum ein Substantiv ist Analoges gilt jedoch auch bei aus mehreren Wortern zusammengesetzten Verben. 

Eine Verallgemeinening dieser Tatsache ftthrt zu der Sprachmodellannahme, daB der einera Kompositum 
vorausgehende Kontext die Wahrscheinlichkeit des letzten Kompositumbestandteils stark . beeinfluBt und daB 
umeekehrt, kennt man diesen letzten Bestandteil. der vorausgehende Kontext weiug Ober die abngen Kompo- 
situmbestandteae aussagt Im SprachmodeD entspricht dies einer N-Grammhaufigkeit PrfW/Q, Ah. derWanr- 
scfaeinlichkeit des letzten Bestandteils W eines Kompositums, gegeben den Kontext G Der letzte Bestandteil W 
undderKontextCsmddabeinichtuimuttemarbenachbarteTeaederbetrachtetenW 

Bei dem erfindungsgemaBen Spracherkennungsverfahren kdnnen ferner fur einen Kompositimiei^tei^Kan- 
didaten W, gegeben einen Komporitumanfang A im SprachmodeD interne N-CJrainmhaufigkeiten ^^W)™ 1 
Inverser zeidicher Abfolge der Kompositumbestandtefle gebildet werden. Die sogenannte rnterae N-Gramm- 
haufigkeit PrfA/W) reprtsentiert dabei die Haufigkeit des Kompositumanfangs A, gegeben das Kompoatumen- 
de W? Die bier in umgekehrter Zeitrichtung veriaufende WahrscheinUchkeitsannahme beruht wiederum auf der 
bereits genannten Tatsache, daB in den meisten Sprachen die grammatisch bestimmenden Tede ernes Komposi- 
tumesregelmaBig am Kompoatumende stehen. . 

Bei dem erfindungsgemaBen Spracherkennungsverfahren kann ferner vorgesehen sem, daB die Bewertung 
des Sprachkontextes sowohl auf Komposito als auch auf Kompositabestandteilen beruht Unter der oben 
aenamiten WahrscheinUchkeitsannahme laBt sich hiermit die Einbeziehung des Kontextes m dem der Erfindung 
zugrundeMegenden SprachmodeD vielseitiger gestalten. Eine Bewertung basierend auf KompositabestandteUen 
bietetsidiinsbesonderedann an, wenn der Kontext Mehrfachkompositaenthait 

Bei dem erfindungsgemaBen Spracherkennungsverfahren kann weiter vorgesehen sein. c^akustische Ver- 
schleifungen oder Kontraktionen benachbarter Wdrter mittels einer Kontextfunktion berflcksichtigt werden 
Bei benachbarten Wortanfangen und Wortenden, insbesondere bei Kompositoanfangen und Kompoataendea 
tritt regelmaBig eine gegenseitige Beeinflussung der jeweiKgen Aussprache dieser Womede auf. Dies rflhrt 
letztKch daher, daB in den meisten Sprachen grundsatzUch ein Bestreben festzustellen ist, bei der Aussprache 
benachbarter WOrter bzw. Kompositabestandteile diese mogKchst flbergangslos und ohne Pausen aneinander- 
zureihen. Dieses Problem wird aufgrund der vorgeschlagenen Kontextfunktion sehr vortedhaft gelSst 

Bei dem erfindungsgemaBen Spracherkennungsverfahren kann ferner vorgesehen sein, daB fttr Kompositum- 
kandidaten ein Bearbeitungspfad bereits dann angelegt wird, wenn ein potentieDer Anfangsted aufgnmd emer 
soezifischen Pfadbewertung zu einer Kompositumhypothese beobachtet wird Daher kann ein sogenimntes 
Ukelihoodprofil unter der Hypothese, es handle sich urn ein Kompositum, berechnet werdea Das Likebhood- 
profiuS efa MaB fflr die QuaDtat eines Bearbeitungspfades dar. Trifft die Kompositumhypothese zu, sollte 
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dieses Profil gflnstiger ausfallen als das alternativer Pfade. Hierdurch wird die Automatisierung des Spracher- 
kennungsprozesses erheblich vereinf acht 

Bei dem erfindungsgemiBen Spracherkennungsverfahren kann ferner vorgesehen seia daB das Sprachsignal 
mittels einer Grobabstimmung zur Ermittlung wahrscheinlicher Wort- bzw. Kompositumgrenzen ausgewertet 
5 wird, und daran anschlieBend eine Feinabstimmung zwischen dem akustischen Signal und den jeweiligen Wort- 
bzw. Kompositumkandidaten vorgenommen wird. Bei der Grobabstimmung werden Wort- bzw. Kompositum- 
kandidaten sowie Zeitpunkte wahrscheinlicher Grenzen von Wdrtern und/oder Kompositabestandteilen ermit- 
telt und diese Ergebnisse dahingehend geprflft, ob Anniherungen an Kompositumbestandteile vorliegen und 
inwieweit die Kompositumkandidaten anhand der SprachmodeUwahrscheinlichkeiten rait den gegebenen Bear- 
to beitungspfaden Qbereinstimmea Bei der im Anschlufi daran durchgefuhrten Feinabstimmung wird die Gesamt- 
abfolge etwa ermittelter Komposita — eventuell unter BerOcksichtigung von Verschleifungen anhand der 
Kontextfunktion — nochmals mit dem akustischen Sprachsignal verg lichen und deren Obereinstimmung ge- 
prflft 

Bei dem erfindungsgemaBen Spracherkennungsverfahren kann ferner vorgesehen sein, daB fur jeden Bearbei- 
15 tungspfad Zugriff e auf relevante SprachmodelldatenblScke erfolgea Hierdurch wird verhindert, daB bei jeder 
Priifung auf einem Bearbeitungspfad stdndig das vollst&ndige Sprachmodell bereitgestellt werden mu& Auf- 
grund dieses Zugriff s auf Datenbldcke wird demnach die Verarbeitungsgeschwindigkeit des Erkennungssystems 
weiter erhdht 

Die Vorzflge der weiteren, in den Unteransprflchen 9 bis 11 charakterisierten AusfQhrungsbeispiele der 
20 Erfindung gegenflber dem Stand der Technik werden in der figurativen Beschreibung ausfflhrlich erttrtert 

Gegenstand der voriiegenden Erfindung ist zudem eine S pracherkennungsano rdnung, bei der das erfindungs- 
gemftfie Spracherkennungsverfahrens zur Anwendung kommt Diese Anordnung weist erfindungsgem§B eine 
Einrichtung zur Erfassung des akustischen Sprachsignal s, eine Einrichtung zur Digitalisierung des analogen 
akustischen Sprachsignals, eine Einrichtung zur Erstellung einer Menge von phonetischen Transkriptionen von 
25 Wdrtern und Kompositabestandteilen* eine Einrichtung zur Erstellung von listen bezflglich einfacher Wftrter, 
KompositumanfangsteOe und Kompositumendteile, eine Einrichtung zur Ermittlung der jeweiligen Sprachmo- 
dellwahrscheinlichkeiten auf einem Bearbeitungspfad fflr diese drei listen, eine Einrichtung zur Ermittlung von 
Wahrscheinlichkeits-Profilen fflr hypothetische Folgen von Wort- und/oder Kompositionskandidaten und eine 
Einrichtung zur Erzeugung und Vernichtung von Bearbeitungspfaden sowie zur Entscheidung fiber die Erzeu- 
30 gung und die Vernichtung von Bearbeitungspfaden auf. Im Rahmen des Spracherkennungsprozesses wird jede 
Liste unter verschiedenen Bedingungea z. B. Kontextea geprflft 

Ein Vorteil dieser Anordnung gegenflber Spracherkennungssystemen nach dem Stand der Technik ist die 
vollstindige Automatisierbarkeit des Spracherkennungsprozesses, unabh&ngig von den Diktatbedingungea 
Weiterhin kann die Spracherkennung in Echtzeit erfolgea Weitere Vorteile der Erfindung ergeben sich aus der 
35 figurativen Beschreibung. 

Bei der erfindungsgem&Ben Spracherkennungsanordnung kann ferner eine Einrichtung zur Kennzeichnung 
von Kompositabestandteilen als Anfangs- oder SchluBteile vorgesehen sein. Die Kennzeichnung kann beispiels- 
weise in Form einer Flagge erfolgea Ein Vorteil dieser Anordnung ist die Erhdhung der Schnelligkeit dieses 
Erkennungs-Teilprozesses, wodurch auch die Performance des gesamten Systems gesteigert wird. 
40 Auf die vorteilhaften Ausgestaltungen der erfindungsgem&Ben Spracherkennungsanordnung gemSB den 
Unteransprflchen 14 bis 16 wird im figurativen Beschreibungsteil ndher eingegangea 

Das Spracherkennungsverfahren sowie die Anordnung zur Spracherkennung gem&B der Erfindung werden 
nachfolgend anhand von Zeichnungen am Beispiel der Kompositabehandlung in der deutschen Sprache einge- 
hender beschriebea 
45 Im einzelnen zeigen: 

Fig. 1 eine schematische Darstellung der erfindungsgemiBen Spracherkennungsanordnung; und 

Fig. 2 die Funktionsweise der Spracherkennungsanordnung gemfiB Fig. 1 bei der Erkennung von deutschspra- 
chigen Wortkomposita anhand eines schematischen Blockdiagramms. 

Bei der in Fig. 1 dargestellten Spracherkennungsanordnung wird das Sprachsignal zun&chst mittels eines 
50 Mikrofons 1 erfaBt Anstelle der Verwendung eines Mikrofons kann das Sprachsignal allerdings auch vorab auf 
einem Speichermedium, beispielsweise einem Diktiergerat, zwischengespeichert seia Dieses Signal wird mittels 
eines Analog/Digital-Wandlers 2 in ein elektronisch weiterverarbeitbares digitales Signal umgewandelt 

Die Weiterverarbeitung des digitalen Signals erfolgt mittels einer Prozessoreinheit 3. Ober einen Eingangska- 
nal 4 gelangt das digitale Signal auf eine Sammelleitung 5 der Prozessoreinheit 3* flber die eine Prozessor-Zen- 
55 traleinheit 6, Speicher 7,8,9, 10, ein Decoder i i und ein Likelihood-Prozessor 12 miteinander kommunizierea 

Die Speicher 7, 8, 9, 10 kdnnen jedoch auch in eine einzelne Speichereinheit integriert seia Im Speicher 7 sind 
die bei der akustischen Signalverarbeitung im Decoder 11 zugnmdegelegten phonetischen Transkriptionen 
abgelegt Letztere stellen akustisch-phonetische Abbilder gesprochener Worte dar. Im Speicher 8 sind beispiels- 
weise mittels der Zentraleinheit 6 vorab erstellte Listen einfacher Wdrter, Kompositumsanf angs- und -endteile 
60 abgelegt Die dem Sprachmodell zugrundeliegenden N-Gramm H&ufigkeiten befinden sich im Speicher 9 und 
wurden vorab aus fflr den jeweiligen Anwendungsbereich spezifischen Textkorpora gebildet Im Speicher 10 
wird schlieBlich das zu untersuchende digitale Sprachsignal gespeichert 

Bei der Spracherkennung von Komposita gemflB der BlockdarsteDung in Fig. 2 sei zuatchst angenommea 
daB die Kompositabestandteile zusammenhdngend diktiert werdea wobei die Oberg&nge zwischen Komposita- 
65 bestandteilen akustisch anders ausfallen werdea als bei einem diskreten Diktat Mittels einer Grobabstimmung 
20, die in erster Annftherung auf grund eines vorgegebenen Vokabulars Kompositakandidaten identifiziert, 
werden zunfichst Zeitpunkte wahrscheinlicher Wort- bzw. Kompositagrenzen ermittelt Da die Kompositabe- 
standteile als einzelne Wdrter im Vokabular auftretea kann die Grobabstimmung 20 am Ende eines jeden 
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Bestandteils einenderartigen Komposituragrenzzeitpunkt ausmachen. 

Im AnschluB daran wird anhand der SprachmodeUwahrscheinlichkeit geprflft 21, wie die bei der Grobabsnm- 
mung ennittelten Kandidaten in die gegebenen Bearbeitungspfade passea Im Rahmen dieser Mfung 21 kann 
es dann zur Anlegung von Verzweigungen 22 des Bearbeitungspfades zur Prflfung raflgbcher Komposita 
kommen. Die Verzweigung in zwei unterschiedliche Pfade stellt ledigfich eine vorteilhafte AusfOhrungsform der s 
Erfmdungdar.SelbstverstandfomsfadauchV^ 

Im weiteren wild for jeden Bearbeitungspfad 23, 24 eine Feinabstimmung 25, 26 zwischen akustischem Spal 
und Kompositumkandidat vorgenommen. Im Falle eines Bearbeitungspfades fQr eine Kompositumhypotbese 
rKompositumpfad") wird dabei nach der durch die akustische Aneinanderkettung der Korapositumoestandtefle 
des Kompositums gegebenen akustischen Symbolfolge gesucht, und nicbt nach der fur die einzemen Bestandtei- 10 
le. Fflr die BerCcksichtigung von Verscbleifungen benachbarter Kompositumteile ist zudem eme Kontextfunk- 

ti °GemiB , dem J dCT Erfindung zugrundeUegenden Sprachmodell hangt die bedingte Wahrscheinlichkeit eines 
Kompositumbestandteils einerseits vom vorausgehenden Kontext, d. h, den dem Kompositum vorausgehenden 
Wflrtern, anderersehs von den Anfangsteilen des Korapositums selbst, ab. Die bedingte Wahrscheinlichkeit 15 
eines Komposkumanfangsteas wird dabei oicht von der desselben Wortes als Bnzehvort unterscnieden Es 
werden lediglich je ein Bearbeitungspfad fflr die Einzelworthypothese sowie em Bearbeitungspfad fflr die 
Kompositumhypothese angelegt r 

Es erfolgt demnach eine Zerlegung der Wahrscheinlichkehen, bei der der emem Kompositum vorangehende 
Kontext und die Bestandteile eines Kompositums getrennt berflcksichtigt werden kflnnen. Ausgangspunkt fflr 20 
die Losung dieses Problems liefert die von der Linguistik her bekannte Tatsache, daB nn Deutschen die 
grammatisch bestimmenden Teile eines Kompositums regehnaBig am Kompositumende angeordnet sind. Der 
am Ende befindliche Bestandteil eines Kompositums gibt dabei Auskunft flber Genus, Casus, Numeric, wenn das 
KonipositumemSubstantivistAnalogesgUtfflrVerbkomposita. 

ZurVerangememenmgdieserTatsachewirdweitermnangenommen,daBdervorausge 25 
ein Kompositum auftritt, die Wahrscheinlichkeit des letzten Bestandteils des Kompositums stark beemfluBt und 
daB urogekehrt, sofern der letzte Bestandtefl bekannt ist, der vorausgehende Kontext wemg flber die flbngen 
Kompositumbestandteileaussagt .... „ . . . . . 

Unter der aus der Wahrscfaeimichkeitstheorie abgeleiteten Annahme unabhangiger Ereigmsse bedeutet dies, 
daB gegeben den letzten Kompositumbestandtea. die vorausgehenden Bestandtefle und der vorausgehende 30 
Kontext bedingt unabhingig sind Bezefchnet man rait W den letzten Kompositumbestandted. mrt A die 
vorausgehenden BesUndteUe und mit C den vorausgehenden Kontext, so laBt sich eine TCgramm-Wahrschem- 
lichkeit des Wortes W als Kompositumendteil hinter dem Anf angsteil A im Kontext C ausdrflcken als: 
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In diesem Ausdruck treten zwei unterschiedliche Trigramm-Wahrscheinlichkeiten auf : Pr(A|W) und Pr(W|C), 
d. h. die Wahrscheinlichkeit des Kompositumanfanges A, gegeben den letzten Kompositumbestandteil W sowie 
die des letzten Bestandteils W, gegeben den Kontext C Insbesondere wird hierbei ein sogenanntes distantes 
Trieramra (Q W) flber nicht unmittelbar benachbarte Tefle der SprachauBerung gebildet Weiterhm tntt m dem 
madieraatischen Ausdruck (2) eine Wahrscheinlichkeit Pr(A)W) auf. Diese Wahrscheinlichkeit des Kompostum- 45 
anfangsteils A, gegeben den KompositumendteB W, entspricht demnach emer innerhalb des Kompositums 
dVrchgefuhrten Wahrscheinlichkeitsbetrachtung. Bemerkenswert ist hierbei, daB diese Wahrscheinhchkerten 
nicht in der zeitlichen Reihenfolge der Wdrteraufeinanderstehen. 

Bei der Implementierung dieses Sprachmodelk wird em kompositainternes Bigramm^prachmodell ersteut, 
das sogenannte Schatzer fflr die genannten Wahrscheinfichkehen aus Sprachkorpora entMH .die in emem so 
Speicher mit zugriffseffizienten Formaten abgelegt sind. Das Neuartige an diesem ModeU is^ daB die tomposi- 
tainternen Wahrscheinlichkehen separat geschatzt werden, und daB diese Schatzung gegen die Zeitnchtung der 

8 %e?deMeduusc£ A^flnrung des kompositainternen Modells werden drei Routinen unterscnieden: Em 
Zugriff auf Datenblocke, ein Zugriff auf Daten fflr einzelne Kandidaten und die Berechnung der jeweiligen 55 

W Der^3f?auf DatenbBcke erfolgt zu Beginn der mittels eines Decoders aiisgefflhrten alaistischen Signal- 
verarbeitung. Es liegt danach zunichst eine Reihe von Bearbeitungspfaden vor. Fflr jeden Pfad werden zunachst 
diejenigen SprachmodeUdatenblScke gesucht die dem vorausgehenden Kontext entsprechen. to Fafle des 
Kompositummodells werden, wenn ein Pfad mit einem Kompoatumanfangstea-Kandidaten endet, Datenblflcke 60 
mit den bedingten Wahrscheinlichkehen dieses Kandidaten unter alien mogbchen SchluBteden eingelesen. 
Sowohl fflr Kompoatumanfangsteile als auch fflr Kompositumendteae werden geeignete Flaggen emgefflhrt 
Hiermit kann das erfindungsgemSBe Spracherkennungssystem erkennen, daB ein Kompositumpfad vorhegt und 
fflr diesenFafl die cntsprechenden Datenblflcke fflrdiesen Pfad laden, 

Fflr aktueU untersuchte Tefle der SprachauBerung wird jeweBs zunachst mittels emer Grobabstimmung eme 65 
Kandidatenliste erzeugt Dabei sind die folgenden FaBe zu unterscheiden: 

1. Ist der Kompositumkandidat Anf angsteil eines potentieUen Kompositums, wird die Standard-Trigramm- 



DE 195 10 083 C2 



Wahrscheinlicfakeit unter dem Kontext berficksichtigt 1st diese hinreichend hoch, so wird der Bearbeitungs- 
pfad, an dessen Endc der Kompositumkandidat stent verzweigt Auf einem Zweig wird dann die Komposi- 
tumhypothese geprflft, auf dem anderen die des Einzelwortes. 

Z 1st der Kompositumkandidat ein zweiter oder weiterer Kompositumteil eines bereits begonnen Komposi- 
tumpf ades, gibt das Trigramm-Modell eine Bewertung von Null zuiUck. Das Kompositum-Bigramm-Modell 
gibt die Wahrscheinlichkeit des neuen Anf angsteils, gegeben den vorhergehenden Teil, zurQck. Hierbei ist 
die Berechnung des sogenannten Bayesschen Theorems (Spies, M, "Unsicheres Wissen", Berlin, Heidelberg, 
1993, Spektrum Akademischer Verlag) erforderlich, da die Wahrscbeinlichkehen in umgekehrter Bedin- 
gungsreihenf olge abgelegt sind. 

3. 1st der Kompositumkandidat SchluBteil eines Kompositums, gibt das Trigramm-Modell die Sprachmo- 
deUwahrscheinlichkeiten des entsprechenden distanten Trigramms an. Das Kompositum-Bigramm-Modell 
liefert die kompositainterne Wahrscheinlichkeit des SchluBteils, gegeben dem zuletzt beobachteten An- 
fangsteiL 

4. Kann der Kompositumkandidat sowohl Anfangsteil als auch SchluBteil sein, mufi der aktuelle Bearbei- 
tungspfad wieder verzweigt werden, zum einen fflr die PrOfung des Kompositumendteils, zum anderen fflr 
die des mindestens zweiten Komposi turn anf angsteils. Ist diese Verzweigung vorgenommen, erfolgt fflr die 
je weiligen Bearbeitungspfade eine Sprachmodellbewertung wie in den zuvor beschriebenen Fallen. 

5. Ist der Kompositumkandidat schlieBlkh weder Anfangs- noch SchluBteil, liefert das Kompositum-Bi- 
grammodell eine Bewertung von Null zurQck; dies fflhrt im weiteren zum Abbruch des Kompositumpf ades 
anhand einer Entscheidungsfunktion, die im Decoder bereits vorhanden ist 



Es wird zunachst angenommen, daB sich der Einflufi der Kontextwdrter und der Anf angsteile eines Komposi* 
turns aus den folgenden unabhangigenTeilstttcken zusammensetzt: 

a) SchluBteil des Kompositums, gegeben den Kontext; und 

b) Anf angsteile des Kompositums, gegeben dessen SchlufiteiL 

Diese Zerlegung der Wahrscheinlichkeiten ist aquivalent mit der Annahme, daB bei gegebenem Kompositura- 
schluBteil der Anfang des Kompositums unabhingig vom Kontext ist Unter diesen Pramissen gilt mit den 
Anfangsteilen hi ... hn des Kompositums, dem SchluBteil t des Kompositums, und den beiden unmittelbar dem 
Kompositum vorausgehenden Wdrter wl und w2, die Beziehung 



Eine weitere Annahme besagt, daB ein Anfangsteil eines Mehrfachkompositums, der nicht zugleich Wortan- 
fang ist, in der komposituminternen Statistik hinreichend gut duich die Wahrscheinlichkeit unter der Bedingung 
des unmittelbar vorausgehenden Anfangs teils beschrieben werden kann. Es gilt demnach: 

Pr(hi|hi-i ...hi wt w 2 ) - Pr(hi|hi_i) (n £ i > i) (4) 

SchlieBlich wird angenommen, daB sich der EinfluB des KomposttumschluBteils auf alle Anfangsteile des 
Kompositums in unabhingige Beitrige des SchluBteils auf den letzten Anfangsteil und der Gbrigen Anfangsteile 
auf ihre jeweiligen Vorganger zeriegen IdBt 

Pr(h! ... h n |t) - PrChilh^). Prthn-ilha) Pr(hn|t) (5) 

Aus diesen Annahmen laBt sich eine fdr die Implementierung wichtige Aussage ableiten, n&mlich, daB f Or den 
ersten Kompositumanfangstefl eine Standardtrigramm- Wahrscheinlichkeit heranzuziehen ist, und daB fflr die 
darauffolgenden Anfangsteile die Wahrscheinlichkeit sich aus dem Produkt einzelner komposituminterner 
Bigramm-Wahrscheinlichkeiten zusammensetzt Die entsprechende mathematische Beziehung lautet: 



Bei der Bearbeitung eines Mehrfachkompositums ist demnach fflr jeden Bestandteil jeweils nur eine ver- 
gleichsweise leicht auf suchbare Wahrscheinlichkeit in Betracht zu Ziehen. Mit diesem Verfahren lassen sich 



Anwendung des Verfahrens auf Mehrf achkomposita 




(3) 




(6) 



6 



DE 195 10 083 C2 

somit die Bearbeitungspfade jcdes Kompositumbestandtefles korrekt bewerten. 
Unter den vorgenannten Annahmen folgt schlieBlich die Beziehung: 

Mfh~ Al"Wt) = P^hwJnPrl^l^,) (7) 

Zur Berechnung der nonnierten Wahrscheinlichkeit des KompositumschluBtefls mflssen demnach nur die auf 
dem Bearbehungspfad durch das gesamte Kompositum auftretenden Koeffizienten Pr(hi|hi-1) multipliziert 
werden, wodurch die Implementierung dieses Verf ahrens erhebHch vereinfadit wird. 

Patentansprfiche 

1. Verfahren zur Spracherkennung bei Wortkomposita enthaltenden Sprachen mh folgenden Schrhten: 
Speichern einer Menge von phonetischen Transkriptionen von Wflrtera und Komposhabestandteilen; 
Berechnen einer Menge von N-Gramm Htufigkeiten (SprachmodeU) for die WahrscheinJichkeit des Auftre- 
tens eines Kompositums innerhalb einer aus N Wdrtern zusammengesetzten Wort folge unter Heranzie- 
hung eines vorab verarbeiteten Textkorpus', und Speichern dieser Menge; 

Erfassen und Digitalisieren des akustischen Sprachsignals sowie Speichern des digitalisierten Sprachsignals, 
wobei mittels einer Signalverarbeitung auf der Grundlage der phonetischen Transkriptionen niherungs- 
weise W6rter und Kompositumbegrenzungen ermittelt werden, aus denen hypothetische Folgen von Wort- 
und/oder Kompositumkandidaten abgeleitet werden; 

Errichten von getrennten Bearbeitungspfaden fOr Folgen von Kompositumkandidaten und ffir Folgen von 
Wortkandidaten; c • 

Statistische Auswertung der Bearbeitungspfade mittels der gespeicherten N-Gramm Haungkeiten, wobei 
aus der Folge der N-Gramm Haufigkeiten der Wdrter bzw. Kompositabestandteile jedes Bearbeitungspfa- 
des Wahre^einlichkeits-Proffle gebildet werden; sowie 

Gesamtbewertung der Bearbeitungspfade unter Heranziehung derermittelten Wahncheinlfchkehs-Profile. 

2. Spracherkennungsverfahren nach Anspruch 1, dadurch gekennzeichnet, daB fQr einen Kompositumend- 
teil-Kandidaten W, gegeben einen Kontext Q im SprachmodeU distante N-Grammhiufigkeiten Pi(W/C) 
nicht unmittelbar benachbarter Teile einer Wortfolge gebildet werden. 

3. Spracherkennungsverfahren nach Anspruch 1 und/oder 2, dadurch gekennzeichnet, daB fQr einen Kom- 
positumendteil-Kandidaten W, gegeben einen Kompositumanfang A, im SprachmodeU interne N-Gramm- 
haufigkeiten Pi<A/W) mh inverser zeitBcher Abfolge der KompositumbestandteUe gebfldet werden. 

4. Spracherkennungsverfahren nach einem oder mehreren der Ansprfiche 1 bis 3 f dadurch gekennzeichnet, 
daB die Bewertung des Sprachkontextes sowohl auf Komposita als auch auf Korapositabestandtetten 
beruht. 

5. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Ansprfiche, dadurch ge- 
kennzeichnet, daB akustische Verschleifungen oder Kontraktionen benachbarter W6rter mittels einer 
Kontextfunktionberficksichtigtwerdea ... u 

6. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Ansprfiche, dadurch ge- 
kennzeichnet, daB fQr Kompositumkandidaten ein Bearbehungspfad berehs dann angeiegt wird, wenn ein 
potentieUer Anfangstefl aufgrund einer spezifischen Pfadbewertung zu einer Kompositumhypothese beob- 
achtetwird , rt , « , , 

7. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Ansprfiche, dadurch ge- 
kennzeichnet, daB das Sprachsignal mittels einer Grobabstimmung zur Ermittlung wahrscheinUcher Wort- 
bzw. Komposhumgrenzen ausgewertet wird, und daran anschlieBend eine Feinabstimmung zwischen dem 
akustischen Signal und den jewefligen Wort- bzw. Kompositumkandidaten vorgenoramen wird. 

8. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Ansprfiche, dadurch ge- 
kennzeichnet, daB fflr jeden Bearbehungspfad Zugriffe auf relevante SprachmodeUdatenblScke erfolgen. 

9. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Ansprfiche, dadurch ge- 
kennzeichnet, daB zur Berechnung der Wahrscheinlichkeit eines Kompositumendteils von dem vorausge- 
henden Kontext und dem Anf angsteU des Kompositums ausgegangen wird. m 

10. Spracherkennungsverfahren nach Anspruch 9, dadurch gekennzeichnet, daB erne Wahrscheinlichkeit 
PrfW/CA) eines Kompositumbestandteils W als KompositumendteU hinter einem Kompositumanfangsteil 
A unter BerOcksichtigung des vorausgehenden, aus zwei Wdrtern bzw. Komposita zusammengesetzten 
Kontextes Q aus dem nonnierten Produkt einer innerhalb des Kompositums gebfldeten inneren Bigramm- 
wahrscheinlichkeit PrfA/W) und einer auBerhalb des Kompositums gebildeten distanten Tngrammwahr- 
scheinlkhkeitPr(W/Qennitteltwir4 

1 1 Spracherkennungsverfahren nach Anspruch 9 und/oder 10, bei Mehrfachkomposita enthaltenden Spra- 
chen, dadurch gekennzeichnet, daB unter den Annahmen, daB bei gegebenem SchluBteU der Anfang eines 
Kompositums unabhfingig vom Kontext ist, daB ein nicht am Kompositumanfang stehender Anfangsteil 
eines Mehrfachkomposhums durch die Wahrscheinlichkeit Pr(Ai/Ai-i) seiner Folge auf den unmittelbar 
vorausgehenden Anfangstefl bestimmt ist, und daB sich der EinfluB des SchluBteils auf aUe Anfangsteile des 
Kompositums in unabhftngige Beitrige des SchluBteils auf den letzten AnfangsteU und der Qbngen An- 
fangstefle auf ihre jeweiiigen Vorganger zerlegen laBt, zur Berechnung der nonnierten Wahrecteinlichkeit 
des KompositumschluBteils auf einem Bearbehungspfad durch das Kompositum auftretende Pfadkoeffi- 
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zienten multipliziert werden. 

12. Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen mittels eines Spracher- 
kennungsverf ahrens gemSB einem oder mehreren der vorhergehenden AnsprQche, mit 

einer Einrichtung (1) zur Erf assung des akustischen Sprachsignals; 
5 einer Einrichtung (2) zur Digitalisierung des akustischen Sprachsignals; 

einer Einrichtung zur ErsteHung einer Menge von phonetischen Transkriptionen von Wdrtera und Kompo- 
sitabestandteilen; 

einer Einrichtung (6) zur ErsteHung von Listen bezuglich einfacher WCrter, Kompositumanfangstefle und 
Kompositumendteile; 

10 einer Einrichtung (12) zur Ermittlung der jeweiligen Sprachmodellwahrscheinlichkeiten auf einem Bearbei- 
tungspfad fQr diesedrei Listen; 

einer Einrichtung zur Ermittlung (21) von Walirecheinlichkeits-Profilen fur hypothetische Folgen von Wort- 
und/oder Kompositionskandidaten; und 

einer Einrichtung zur Erzeugung und Vernichtung von Bearbeitungspfaden (22) sowie zur Entscheidung 
15 fiber die Erzeugung und die Vernichtung von Bearbeitungspfaden. 

13. Spracherkennungsanordnung nach Anspruch 12, mit einer Einrichtung zur Kennzeichnung von Kompo- 
sitabestandteilen als Anfangs- oder SchluBteile. 

14. Spracherkennungsanordnung nach Anspruch 12 und/oder 13, mit einer Einrichtung zum Erstellen und 
Laden von Datenbldcken von Sprachmodeuwahncheinlidikehen. 

20 15. Spracherkennungsanordnung nach einem oder mehreren der AnsprQche 12 bis 14, mit einer Einrichtung 
zur Bereitstellung beliebig vieler Kompositamodelle in Form von Sprachmodellklassen. 
16. Spracherkennungsanordnung nach einem oder mehreren der AnsprQche 12 bis 15, mit einer Einrichtung 
zur ErsteHung einer Kontextfunktion. 

25 Hierzu 1 Seite(n) Zeichnungen 
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